掩码科幻影视

从检测到通用感知：构建空间智能的基础

视觉感知是机器和物理世界交互的基础，也是 AI 走向通用必须具备的能力。本文整理自 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊 6 月在 AICon 2025 北京的分享《从检测到通用感知：构建空间智能的基础》。

智能 transformer 通用掩码 dino 2025-11-18 14:33 15

田渊栋离职Meta，最后一篇论文？

离职meta后，田渊栋团队最新论文放出了。他们提出的「三门理论」发现，RLVR微调只在小权重里发力，性能提升的同时又不破坏模型结构。

meta 论文 rl 掩码田渊 2025-11-18 10:21 50

全球首个！Nature重磅研究：计算机视觉告别“偷数据”时代

计算机视觉（CV）技术，广泛应用于自动驾驶汽车、消费电子设备等众多领域。其中，图像数据集扮演着基础性的角色，ImageNet 等大型图像数据集的出现，使计算机视觉领域实现了革命性突破。

研究数据集计算机视觉掩码 fhibe 2025-11-13 15:39 10

首个实例理解3D重建模型，NTU&阶越提出基于实例解耦的3D重建模型，助理场景理解

传统方法将3D重建（底层几何）与空间理解（高层语义）割裂处理，导致错误累积且无法泛化。而新方法试图将3D模型与特定的视觉语言模型（VLM）“锁死” ，这不仅限制了模型的感知能力（例如，无法区分同一类别的两个不同实例），更阻碍了其适应更强下游任务的扩展性

模型 ntu transformer qa 掩码 2025-10-31 16:26 19

央视点赞AI黑科技！WorldVLA让机器人不仅会做，更懂为什么这么做

阿里达摩院、湖畔实验室跟浙江大学一起，搞出了个叫WorldVLA的东西。这玩意儿不是简单的AI模型升级，而是想让AI真正“理解”世界，之前AI能看东西、能做动作，现在终于能搞懂动作和环境的关系了。

央视机器人黑科技掩码 worldvla 2025-10-31 15:32 21

无需坐标回归、不靠SAM拼接！统一检测、分割、指代任务

格式混乱：即使在相同的提示下，不同样本的输出格式也常常不一致，从而增加了解析和结构化输出的难度；语义断裂：坐标是数值，与图像块之间缺乏直接语义关联，模态错位；幻觉频发：模型容易生成“图中没有的框”或重复预测同一物体。

模态 llm sam patch 掩码 2025-10-30 14:09 14

Transformer 基础原理与数学模型深度解析

Transformer 作为当前自然语言处理（NLP）、计算机视觉（CV）等领域的核心架构，其设计围绕自注意力机制展开，通过并行化计算大幅提升了模型效率与性能。本文将以 PyTorch 实现逻辑和原始论文（《Attention Is All You Need》

transformer encoder 掩码残差数学模型 2025-10-28 06:53 13

掩码多头自注意力：AI 靠 “带遮挡板的多组放大镜”不偷看还能看全

之前聊过 “多头注意力” 像 AI 的 “多组放大镜”，能同时盯紧屯子里事的多个重点；也聊过 “掩码” 像 “文字遮挡板”，防止 AI 生成内容时 “偷看” 后文。而 “掩码多头自注意力”，就是给这组 “放大镜” 加了 “遮挡板”—— 让 AI 既能多维度看全

化肥放大镜机器翻译掩码屯里 2025-10-15 16:48 16

从合规驱动到智能防护：2025年数据安全平台的演进与选择

在数字经济全面提速的当下，数据已成为关键生产要素。但数据价值的大规模释放，也带来了前所未有的安全挑战。正如在国家层面提出的：“加强数据安全技术应用和产业培育，引导企业根据不同安全等级的数据，采取不同的安全技术进行流通，持续提升安全可信流通、风险监测预警能力。”

智能数据安全 api接口脱敏掩码 2025-10-15 15:56 16

上海AI实验室突破自回归图像生成瓶颈：ST-AR让AI&

近期，上海AI实验室联合悉尼大学、香港中文大学和香港大学的研究团队发表了一项重要研究成果，题为《Understand Before You Generate: Self-Guided Training for Autoregressive Image Gene

实验室图像上海掩码 fid 2025-09-30 17:11 33

NeurIPS&| OpenWorldSAM实现了真正的通用图像分割！

作者：Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda

通用 sam neurips 掩码 openworldsam 2025-09-24 18:45 11

Transformer自回归关键技术：掩码注意力原理与PyTorch完整实现

掩码注意力（Causal Attention）是生成式模型的核心技术，它传统自注意力机制有根本的不同，掩码注意力限制模型只能关注当前位置之前的tokens，确保了自回归生成的因果性。

transformer 掩码掩码注意力 pytorch完整 2025-09-25 19:52 24

Salesforce从AI模型转向智能体AI战略转型

Salesforce执行副总裁兼首席科学家Silvio Savarese在接受Computer Weekly采访时表示，AI对企业的真正价值不在于底层模型，而在于构建在其之上的智能体能力。

模型智能体 salesforce lam 掩码 2025-09-25 14:41 13

从另一个视角看Transformer：注意力机制就是可微分的k-NN算法

注意力机制听起来很玄乎，但我们可以把它看作一个软k-NN算法。查询向量问："谁跟我最像？"，softmax投票，相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释：一个可微分的软k-NN：计算相似度 → softmax转换为权重 → 对邻居值求加权

视角算法 transformer 掩码 axis 2025-09-24 20:22 22

ByteDance Mini-o3实现AI深度视觉思考

这项由ByteDance（字节跳动）的赖昕和香港大学的赵恒爽领导的研究发表于2025年9月，论文全名为《Mini-o3: Scaling Up Reasoning Patterns and InteraCTion Turns for Visual Search

推理视觉掩码 probe bytedance 2025-09-23 15:20 16

紧急！压缩包忘密码打不开？ZipCracker 一键破解，亲测有效！

ZipCracker是一款由Hx0战队开发的高性能多并发破解工具，专为破解密码保护的Zip文件而设计。它采用CRC32碰撞、字典攻击及掩码攻击等方式猜测Zip文件的明文或密码，并能成功提取其中的内容。这款工具具备识别"伪加密"Zip文件的能力，并能自动进行修复

zip 掩码压缩包 zipcracker crc32 2025-09-15 15:36 40

Text4Seg++: 让语言模型生成“文本掩码”，重新定义图像分割

多模态大语言模型（MLLM）在理解和生成语言方面的能力令人惊叹，但在处理需要精确空间定位的视觉任务（如图像分割）时，往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制，增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的

模型图像分割掩码 text4seg 文本掩码 2025-09-12 19:33 37